This paper describes our two-stage system for the Euphemism Detection shared task hosted by the 3rd Workshop on Figurative Language Processing in conjunction with EMNLP 2022. Euphemisms tone down expressions about sensitive or unpleasant issues like addiction and death. The ambiguous nature of euphemistic words or expressions makes it challenging to detect their actual meaning within a context. In the first stage, we seek to mitigate this ambiguity by incorporating literal descriptions into input text prompts to our baseline model. It turns out that this kind of direct supervision yields remarkable performance improvement. In the second stage, we integrate visual supervision into our system using visual imageries, two sets of images generated by a text-to-image model by taking terms and descriptions as input. Our experiments demonstrate that visual supervision also gives a statistically significant performance boost. Our system achieved the second place with an F1 score of 87.2%, only about 0.9% worse than the best submission.
translated by 谷歌翻译
Giving machines the ability to imagine possible new objects or scenes from linguistic descriptions and produce their realistic renderings is arguably one of the most challenging problems in computer vision. Recent advances in deep generative models have led to new approaches that give promising results towards this goal. In this paper, we introduce a new method called DiCoMoGAN for manipulating videos with natural language, aiming to perform local and semantic edits on a video clip to alter the appearances of an object of interest. Our GAN architecture allows for better utilization of multiple observations by disentangling content and motion to enable controllable semantic edits. To this end, we introduce two tightly coupled networks: (i) a representation network for constructing a concise understanding of motion dynamics and temporally invariant content, and (ii) a translation network that exploits the extracted latent content representation to actuate the manipulation according to the target description. Our qualitative and quantitative evaluations demonstrate that DiCoMoGAN significantly outperforms existing frame-based methods, producing temporally coherent and semantically more meaningful results.
translated by 谷歌翻译
基于流量的生成超分辨率(SR)模型学会生产一组可行的SR解决方案,称为SR空间。 SR溶液的多样性随着潜在变量的温度($ \ tau $)的增加而增加,这引入了样品溶液之间纹理的随机变化,从而导致视觉伪像和低忠诚度。在本文中,我们提出了一种简单但有效的图像结合/融合方法,以获得消除随机伪像的单个SR图像,并改善忠诚度,而不会显着损害感知质量。我们通过从流量模型跨越的SR空间中的一系列可行的光真实解决方案中受益,从而实现这一目标。我们提出了不同的图像结合和融合策略,这些策略提供了多种途径,可以根据手头任务的保真度与感知质量要求,以可控的方式将SR Slace样本解决方案移至感知延伸平面中更为理想的目的地。实验结果表明,与流量模型和经过对抗训练的模型所产生的样本SR图像相比,我们的图像结合/融合策略在定量指标和视觉质量方面实现了更有希望的感知依赖权衡。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
在极低光线条件下捕获图像会对标准相机管道带来重大挑战。图像变得太黑了,太吵了,这使得传统的增强技术几乎不可能申请。最近,基于学习的方法已经为此任务显示了非常有希望的结果,因为它们具有更大的表现力能力来允许提高质量。这些研究中的激励,在本文中,我们的目标是利用爆破摄影来提高性能,并从极端暗的原始图像获得更加锐利和更准确的RGB图像。我们提出的框架的骨干是一种新颖的粗良好网络架构,逐步产生高质量的输出。粗略网络预测了低分辨率,去噪的原始图像,然后将其馈送到精细网络以恢复微尺的细节和逼真的纹理。为了进一步降低噪声水平并提高颜色精度,我们将该网络扩展到置换不变结构,使得它作为输入突发为低光图像,并在特征级别地合并来自多个图像的信息。我们的实验表明,我们的方法通过生产更详细和相当更高的质量的图像来引起比最先进的方法更令人愉悦的结果。
translated by 谷歌翻译
如何最好地将涉及语言和视觉的多模式任务中的语言和感知处理整合在一起是一个重要的开放问题。在这项工作中,我们认为,以自上而下的方式使用语言的常见做法,直接通过高级视觉特征进行视觉关注,这可能不是最佳的。我们假设使用语言还可以调节从像素到高级功能的自下而上处理可以为整体性能带来好处。为了支持我们的主张,我们提出了一个基于U-NET的模型,并对两个语言视觉密集预测任务进行实验:引用表达式分割和语言引导的图像着色。我们比较结果,其中一个或自下而上的视觉分支都以语言为条件。我们的实验表明,除了自上而下的注意力外,使用语言来控制自下而上的视觉处理,从而为任务和实现竞争性表现提供更好的结果。我们的语言分析表明,自下而上的条件改善对象的细分,尤其是当输入文本是指低级视觉概念时。代码可在https://github.com/ilkerkesen/bvpr上找到。
translated by 谷歌翻译
在本文中,使用Resnet-34作为功能提取器,将基于LSTM的基于LSTM自动编码器的体系结构用于嗜睡。该问题被认为是单个受试者的异常检测。因此,只有普通的驾驶表示形式,并且可以根据网络的知识来区分嗜睡表征,从而产生更高的重建损失。在我们的研究中,通过标签分配的方法研究了正常和异常夹的置信度水平,以便根据不同的置信率分析LSTM自动编码器的训练性能以及测试过程中遇到的异常情况的解释。我们的方法在NTHU-DDD上进行了实验,并通过最先进的异常检测方法进行基准测试,以使驱动器嗜睡。结果表明,所提出的模型在曲线(AUC)下达到0.8740面积的检测率,并能够在某些情况下提供重大改进。
translated by 谷歌翻译
由于无人机成本降低并且无人机技术有所改善,无人机检测已成为对象检测的重要任务。但是,当对比度较弱,远距离可见度较弱时,很难检测到遥远的无人机。在这项工作中,我们提出了几个序列分类体系结构,以减少无人机轨道检测到的假阳性比率。此外,我们提出了一个新的无人机与鸟类序列分类数据集,以训练和评估拟议的架构。3D CNN,LSTM和基于变压器的序列分类体系结构已在拟议的数据集上进行了培训,以显示提出的思想的有效性。如实验所示,使用序列信息,鸟类分类和整体F1分数可以分别提高73%和35%。在所有序列分类模型中,基于R(2+1)D的完全卷积模型可产生最佳的转移学习和微调结果。
translated by 谷歌翻译
表现良好的深度学习模型通常具有很高的计算成本。在本文中,我们结合了两种试图降低计算成本的方法,同时保持模型性能很高:修剪和提早出口网络。我们评估了修剪早期出口网络的两种方法:(1)立即修剪整个网络,(2)以有序的方式修剪基本网络和其他线性分类器。实验结果表明,一般而言,立即修剪整个网络是更好的策略。但是,以高精度的速度,这两种方法具有相似的性能,这意味着可以将修剪和提早出口的过程分开而不会丧失最佳性。
translated by 谷歌翻译
深度神经网络用于图像识别任务(例如预测笑脸)的性能会以代表性不足的敏感属性类别降低。我们通过基于人口统计学奇偶校验,均衡赔率和新型的联合会措施的批估计估计来引入公平意识的正规化损失来解决这个问题。对Celeba,UTKFACE和SIIM-ISIC黑色素瘤分类挑战的面部和医学图像进行的实验表明,我们提出的公平性损失对偏置缓解的有效性,因为它们可以改善模型公平,同时保持高分类性能。据我们所知,我们的工作是首次尝试将这些类型的损失纳入端到端培训方案,以减轻视觉属性预测指标的偏见。我们的代码可在https://github.com/nish03/fvap上找到。
translated by 谷歌翻译